随着在线社交媒体提供的沟通自由,仇恨言论越来越多地产生。这导致网络冲突影响个人和国家一级的社会生活。结果,在发送到社交网络之前,仇恨的内容分类越来越需要过滤仇恨内容。本文着重于使用多个深层模型在社交媒体中对仇恨言论进行分类,这些模型通过整合了最近的基于变压器的语言模型,例如BERT和神经网络。为了改善分类性能,我们通过几种合奏技术进行了评估,包括软投票,最大价值,硬投票和堆叠。我们使用了三个公开可用的Twitter数据集(Davidson,Hateval2019,OLID)来识别进攻性语言。我们融合了所有这些数据集以生成单个数据集(DHO数据集),该数据集在不同的标签上更加平衡,以执行多标签分类。我们的实验已在Davidson数据集和Dho Corpora上举行。后来给出了最佳的总体结果,尤其是F1宏观分数,即使它需要更多的资源(时间执行和内存)。实验显示了良好的结果,尤其是整体模型,其中堆叠在Davidson数据集上的F1得分为97%,并且在DHO数据集上汇总合奏的77%。
translated by 谷歌翻译